Au-delà des mots : Comprendre la tokenisation et le test du bonbon lollipop

L'architecture cachée du langage

Les grands modèles de langage (LLM) ne « lisent » pas le texte comme les humains. Alors que nous voyons des lettres et des mots, les modèles traitent l'information sous forme de morceaux numériques appelés Tokens. Comprendre cette abstraction est la première étape vers la maîtrise de l'ingénierie des prompts et de la conception de systèmes.

Le test du bonbon lollipop

Pourquoi un modèle de langage a-t-il du mal à inverser les lettres du mot « lollipop » mais réussit immédiatement lorsqu'on lui demande d'inverser « l-o-l-l-i-p-o-p » ?

Le problème :Dans le mot standard, le modèle voit un seul token représentant tout le mot. Il n'a pas une carte claire des lettres individuelles qui le composent.
La solution :En ajoutant des traits d'union au mot, vous forcez le modèle à découper chaque lettre individuellement, ce qui donne la vision granulaire nécessaire pour effectuer la tâche.

Principes fondamentaux

Ratio de tokens :Comme règle générale, 1 token représente environ 4 caractères en anglais, soit environ 0,75 mot.
Fenêtres contextuelles :Les modèles ont une taille fixe de « mémoire » (par exemple, 4096 tokens). Cette limite inclut à la fois vos instructions et la réponse du modèle.

Modèle de base vs. modifié par instruction

Modèles de base (LLM) :Prédire le mot le plus probable suivant sur la base de grandes bases de données (par exemple, « Quelle est la capitale de la France ? » pourrait être suivi de « Quelle est la capitale de l’Allemagne ? »).
Modèles ajustés par instruction (LLM) :Affinés via l'apprentissage par renforcement à partir de feedback humain (RLHF) pour suivre des commandes spécifiques et agir comme des assistants.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?

A) 3,000 tokens

B) 750 tokens

C) 12,000 tokens

Question 2

Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?

A) It is faster at generating text.

B) It uses fewer tokens.

C) It is trained to follow specific tasks and dialogue formats.

Challenge: Token Estimation

Apply the token ratio rule to a real-world scenario.

You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.

Step 1

Estimate the number of tokens for a single daily report.

Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$

Step 2

Calculate the estimated cost to process one daily report.

Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$